1
ภาพรวมและภูมิทัศน์การพัฒนาสถาปัตยกรรม
EvoClass-AI003บทเรียนที่ 4
00:00

ภาพรวมและภูมิทัศน์การพัฒนาสถาปัตยกรรม

เราเปลี่ยนผ่านจากความสำเร็จเบื้องต้นของ AlexNet สู่ยุคของเครือข่ายประสาทเทียมแบบลึกมาก เครือข่ายประสาทเชิงพีชคณิต (CNNs). การเปลี่ยนแปลงนี้จำเป็นต้องมีนวัตกรรมทางสถาปัตยกรรมอย่างลึกซึ้งเพื่อจัดการกับความลึกสุดขีดในขณะที่ยังคงเสถียรภาพในการฝึกอบรม เราจะวิเคราะห์สถาปัตยกรรมสำคัญสามแบบ—VGG , GoogLeNet (Inception) และ ResNet—เพื่อเข้าใจว่าแต่ละสถาปัตยกรรมได้แก้ไขประเด็นต่างๆ ที่เกี่ยวข้องกับการขยายขนาดอย่างไร ซึ่งเป็นพื้นฐานสำคัญสำหรับความเข้าใจโมเดลอย่างแม่นยำในบทเรียนต่อไป

1. ความเรียบง่ายทางโครงสร้าง: VGG

VGG ได้แนะนำแนวทางการเพิ่มความลึกโดยใช้ขนาดเคอร์เนลที่เล็กและสม่ำเสมออย่างมาก (โดยเฉพาะ ฟิลเตอร์เชิงพีชคณิต 3x3 ที่ซ้อนกัน) ถึงแม้ว่าจะใช้ทรัพยากรในการคำนวณสูง แต่ความสม่ำเสมอทางโครงสร้างของมันได้พิสูจน์ว่าความลึกที่แท้จริง ซึ่งเกิดจากการเปลี่ยนแปลงสถาปัตยกรรมน้อยที่สุด เป็นปัจจัยหลักที่ทำให้ประสิทธิภาพดีขึ้น และยืนยันความสำคัญของสนามรับรู้ที่เล็ก

2. ประสิทธิภาพการคำนวณ: GoogLeNet (Inception)

GoogLeNet ตอบโต้ต้นทุนการคำนวณสูงของ VGG โดยให้ความสำคัญกับประสิทธิภาพและการดึงลักษณะเฉพาะหลายระดับ นวัตกรรมหลักคือ โมดูล Inception ซึ่งดำเนินการคำนวณเชิงพีชคณิตแบบขนาน (1x1, 3x3, 5x5) และการรวมกลุ่ม อย่างสำคัญ คือ มันใช้ การคำนวณเชิงพีชคณิต 1x1 เป็น จุดแคบ เพื่อลดจำนวนพารามิเตอร์และซับซ้อนของการคำนวณอย่างมาก ก่อนการดำเนินการที่มีต้นทุนสูง

ความท้าทายด้านเทคนิคหลัก
คำถามที่ 1
สถาปัตยกรรมใดเน้นความสม่ำเสมอทางโครงสร้างโดยใช้ฟิลเตอร์ 3x3 อย่างมากเพื่อเพิ่มความลึก?
AlexNet
VGG
GoogLeNet
ResNet
คำถามที่ 2
การคำนวณเชิงพีชคณิต 1x1 ถูกใช้หลักในโมดูล Inception เพื่อวัตถุประสงค์หลักอะไร?
เพิ่มความละเอียดของแผนที่ลักษณะ
การกระตุ้นแบบไม่เป็นเชิงเส้น
ลดมิติ (จุดแคบ)
การสนใจพื้นที่
ความท้าทายสำคัญ: ความชันของเกรเดียนต์หายไป
วิธีการแก้ปัญหาด้านวิศวกรรมเพื่อการปรับแต่ง
อธิบายว่าการจับคู่แบบเอกลักษณ์ของ ResNet แก้ไขปัญหาความชันของเกรเดียนต์หายไปอย่างไร นอกเหนือจากเทคนิคเช่น การเริ่มต้นพารามิเตอร์ที่ดีขึ้น หรือ การปรับปกติแบบแบตช์
คำถามที่ 1
อธิบายกลไกที่ทำให้การเชื่อมข้าม (skip connection) ช่วยคงเสถียรภาพของกระแสเกรเดียนต์ระหว่างการส่งกลับข้อมูล (backpropagation)
คำตอบ:
การเชื่อมข้ามเพิ่มพจน์เอกลักษณ์ ($+x$) เข้าไปในผลลัพธ์ ทำให้เกิดพจน์เพิ่มเติมในเส้นทางอนุพันธ์ ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$) พจน์นี้ทำให้มีเส้นทางโดยตรงสำหรับสัญญาณเกรเดียนต์ไหลกลับไปข้างหน้า รับประกันว่าพารามิเตอร์ด้านบนจะได้รับสัญญาณเกรเดียนต์ที่ไม่ใช่ศูนย์และใช้งานได้ ไม่ว่าจะเล็กเพียงใดก็ตามที่เกิดขึ้นผ่านฟังก์ชันผลต่าง $F(x)$